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面向 拷贝 检测 的 图 像 哈 希 算法 
沈 鹿 ， 赵 下 


(上 海 电力 学 院 电子 与 信息 工程 学 院 ， 上 海 200090) 


摘 要 : 为 了 准确 、 快 速 地 将 拷贝 图 像 识 别 出 来 ， 提 出 一 种 基于 CS-LBP(centrally symmetric local binary pattern) 纹 理 与 
位 图 像 统 计 的 图 像 哈 硕 算 法 。 算 法 首先 对 图 像 做 预 处理 ; 然后 利用 三 级 小 波 分 解 得 到 近似 图 像 和 高 频 信 息 ， 对 第 二 、 
三 级 近似 图 像 利 用 Ring 分 割 ， 提取 每 一 环 的 统计 特征 ， 对 第 二 、 三 级 高 频 信 息 的 水 平方 向 分 量 和 垂直 方向 分 量 进行 位 
图 像 分 解 ， 提 取 统 计 特 征 ; 最 后 将 所 有 的 低频 和 高 频 特征 联合 起 来 生成 图 像 哈 希 序列 。 实 验 结 果 表 明 所 提 算 法 的 分 类 
性 能 优 于 现 有 的 一 些 哈 硕 算 法 ， 在 拷贝 检测 应 用 上 具有 很 好 的 准确 率 。 
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Image hash algorithm for copy detection 


Shen Qi, Zhao Yani 
(College of Electronics & Information Engineering, Shanghai University of Electric Power, Shanghai 200090, China) 


Abstract: In order to identify the copied images accurately and quickly, this paper presented an image hash algorithm based on 
CS-LBP(centrally symmetric local binary pattern) texture and bit image statistics. Firstly, it preprocessed the image, and obtained 
the approximate image and high frequency information by using the three-level wavelet decomposition. It segmented the second 
and third approximations image by Ring and extracted the statistical characteristics of each ring. The horizontal component and 
the vertical component of the second and third level high-frequency information execute bit image decomposition, which 
extracted statistical features. Finally all the low-frequency and high-frequency features together to generate image hash sequence. 


The experimental results show that the classification performance of this algorithm is better than some existing hash algorithms 


and has good accuracy in copy detection applications. 
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DCT 变换 ， 利 用 其 AC 系数 来 构建 哈 希 。 算 法 对 图 像 进行 了 算 
阵 分 块 ， 因 此 其 对 旋转 不 鲁 棒 。Ling 等 人 急 提 出 多 尺度 的 SIFT 
随 着 网 络 技术 的 快速 发 展 ， 各 种 拷贝 图 像 呈 几何 倍率 的 增 (scale-invariant feature transform ) 特征 描述 符 来 构建 哈 希 ， 该 
加 ， 各 种 编辑 软件 如 美 图 秀 秀 、 百 度 魔 图 、 光 影 魔术 手 等 软件 方法 对 一 些 区 域 提取 不 同 半径 的 SIFT 特征 描述 符 ， 有 效 地 提 
的 出 现 ， 使 得 用 户 不 需要 专业 知识 也 能 够 随意 地 对 图 像 进行 编 高 了 局 部 区 域 的 区 别 能 力 。 吴 坤 等 人 BJ 提出 了 一 种 具有 针对 性 
辑 处 理 ， 图 像 的 拷贝 检测 变 得 越 来 越 困 难 。 随 着 图 像 哈 希 的 提 的 拷贝 图 像 检 测算 法 ， 该 算法 利用 Shi-Tomasi 角 点 检测 算 子 的 
寺 性 ， 使 其 在 拷贝 检测 应 用 方面 有 着 很 大 的 优势 。 旋转 不 变性 提取 对 旋转 不 敏感 的 角 点 ， 再 计算 角 点 中 心 圆 环 内 
如 像 哈 希 指 将 图 像 通 过 算法 表示 为 简短 的 序列 。 其 特性 有 的 特征 描述 子 来 构建 哈 希 。 该 方法 对 剪 切 和 旋转 的 鲁 棒 性 好 ， 

性 、 区 别 性 、 安 全 性 等 。 鲁 棒 性 指 原始 图 像 和 经 常规 处 理 的 但 其 对 高 斯 滤波 的 鲁 棒 性 差 。Tang 等 人 中 通 过 利用 DCT 系数 
像 的 哈 希 序列 相差 不 大 ， 区 别 性 指 两 幅 不 同 图 像 应 有 不 同 的 哈 来 构建 哈 希 ， 该 算法 将 图 像 分 块 ， 对 每 个 图 像 块 进行 DCT 变 
希 序 列 ， 安 全 性 指 在 在 错误 密 钥 情况 下 得 到 的 哈 希 与 正确 密 铀 换 , 然后 利用 DCT 的 系数 来 构建 不 变 特征 得 到 图 像 的 哈 希 。 算 
得 到 的 哈 希 明显 不 同 。 法 在 运算 速度 上 有 着 明显 的 优势 ， 但 其 不 能 对 旋转 鲁 棒 ， 在 分 
图 像 拷贝 检测 概念 的 正式 提出 是 在 2003 年 Kimi 提 出 图 类 性 能 还 有 待 提高 。 唐 振 军 等 人 喇 提 出 了 一 种 基于 主 成 分 分 析 
像 分 块 结合 离散 余弦 变换 (discrete cosine transform，DCT) 的 (principal component analysis，PCA ) 特征 距离 的 哈 希 算 法 ， 该 
像 拷贝 检测 算法 ， 其 将 图 像 分 块 处 理 ， 然 后 对 矩阵 块 进行 ”算法 通过 对 图 像 进行 分 块 ， 对 每 个 图 像 块 按 列 展开 构建 为 二 次 
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图 像 , 然后 利用 PCA 进行 处 理 来 获得 哈 希 序列 。 虽然 该 算法 有 
着 较 好 的 分 类 性 能 ， 但 其 效率 不 高 。 李 新 伟 等 人 器 首先 利用 
Gabor 变换 构建 图 像 的 结构 图 ;然后 将 结构 图 转变 为 极 坐 标 情 
况 下 ， 并 进行 子 块 划分 和 归 一 化 使 其 对 旋转 具有 重 棒 性 ， 最 后 
对 结构 子 图 进行 加 权 求 和 并 量化 为 哈 希 序列 。 该 算法 在 保证 较 
好 的 鲁 棒 性 和 区 别 性 的 同时 还 实现 了 紧凑 性 。Srivastava 等 人 [7 
提出 一 种 基于 统计 特征 的 哈 希 算 法 ， 该 算法 通过 对 图 像 进行 不 
同方 向 的 Radon 变换 ， 然 后 对 每 一 列 的 Randon 系数 进行 DCT 
变换 ， 最 后 统计 每 列 的 AC 系数 的 均值 、 标 准 偏 差 、 峰 度 和 偏 
差 的 横向 分 量 得 到 哈 希 序列 。 算 法 对 常规 处 理 有 着 很 好 的 和 鲁 棒 
性 ， 但 其 效率 有 待 提 高 。 
为 了 使 图 像 哈 希 在 拷贝 检测 性 能 上 具有 良好 的 分 类 性 能 的 
同时 有 较 好 的 效率 ， 本 文 利 用 CS-LBP 纹理 具有 较 强 的 描述 能 
力 和 计算 速度 快 等 优点 对 小 波 分 解 的 对 近似 图 像 进行 CS-LBP 
处 理 结合 Ring 分 割 提 取 统 计 特征 , 在 此 基础 上 , 利用 位 图 像 具 
有 较 好 的 抗 噪声 能 力 ， 对 小 波 分 解 的 高 频 信 息 应 用 位 图 像 分 解 
提取 其 统计 特征 ， 提 高 算法 对 噪声 的 鲁 棒 性 ;然后 联合 近似 图 
像 和 高 频 信 息 得 到 的 特征 构成 中 间 哈 希 ， 最 后 对 中 间 哈 希 置 乱 


1.4 基于 CS-LBP 算 子 的 纹理 提取 

CS-LBP 算 子 09 是 在 基本 LBP 算 子 上 定义 新 的 编码 方式 。 
CS-LBP 在 计算 速度 上 相对 于 LBP 算 子 具有 明显 优势 .CS-LBP 
的 编码 规则 如 式 (1) 和 (2) 所 示 。 


| 
2 » 
CS —LBPR,N (x,)y)= Ds nN) (1) 
i=0 
Ce 1 x>0 2 
“lo 其 他 © 


其 中 : R 表示 圆 半径 ;NN 表示 圆周 上 的 像素 点 个 数 。 
对 三 级 小 波 分 解 中 的 第 二 、 三 级 的 近似 图 像 应 用 CS-LBP 
得 到 第 二 、 三 级 CS-LBP 纹理 图 像 。 
1.5 基于 Ring 分 割 特征 提取 
引入 Ring 分 割 00 对 第 二 级 CS-LBP 纹理 图 像 /"(x,y) 进行 
分 环 处 理 。 根 据 像 素 点 到 图 像 中 心 距离 来 划分 像素 属于 哪个 像 
素 集 ，Ri(i=12,3..n) 表示 第 i 个 圆 环 的 像素 集 。 通 过 统计 特征 
(均值 、 方 差 、 偏 态 、 峰 态 ) 来 表示 圆 环 内 像素 的 特征 ， 有 效 
地 将 高 维特 征 转 为 低 维 特征 表示 ， 并 增加 其 鲁 棒 性 。 设 n 为 区 


息 
后 得 到 最 终 哈 希 。 实 验 结果 表明 本 文 算法 有 着 不 错 的 分 类 性 能 
和 效率 。 


1 ”本 文 哈 希 算法 


1.1 哈 希 算法 框架 
本 文 的 哈 希 算法 主要 


预 处 理 、 小 波 分 解 、CS-LBP 统计 特 


征 、 位 图 像 统 计 特 征 组 成 。 具 体 过 程 如 图 1 所 示 。 
| CS-LBP 统 计 密 钥 

特征 

输入 图 像 

一 一 > 预 处 理 小 波 分 解 一 > 生成 哈 希 一 一 > 

Hash 
、 位 图 像 统计 

特征 


高 频 信息 


图 1 图 像 Hash 的 生成 


1.2 图 像 预 处 理 
首先 ， 通 过 双 线 性 插值 将 不 同 大 小 的 图 像 规格 化 为 MxM 
大 小 ,将 图 像 规格 化 为 相同 大 小 可 以 提高 算法 对 缩放 的 鲁 棒 性 ; 
然后 进行 高 斯 低 通 滤波 ， 提 高 对 噪声 的 鲁 棒 性 ， 由 于 本 文 提取 


环 数量 ， 为 1"(x,y) 内 的 第 Kf 三 1,2...n) 个 圆 半径 ，rm 可 以 由 式 
(G3) 计算 得 到 。 
- 峰 
各 S| 也 G) 


其 中 :| ] 表 示 向 下 取 整 。 


其 他 圆 半径 ， 通 过 内 接 圆 面积 5S 及 均值 50 来 计算 。 
5S = m2, 50 -| (4) 


到 


半径 计算 如 (9) 和 (6) 所 示 。 
| 
有 -| 也 | G) 
A 
2 
k= 30Hr =2,3..n—1) (6) 
A 


像素 位 置 到 图 像 中 心 的 距离 d 为 


dix,y = (x-xe} +(y -yey 0) 


其 中 : xyc 为 图 像 中心 坐 标 :， x,y 为 像素 坐标 。 
根据 距离 d 来 判断 像素 是 属于 哪个 像素 集 ， 如 式 (8) (9) 所 


的 特征 是 基于 纹理 和 位 图 像 统计 ， 再 将 彩色 图 像 转换 为 灰 度 图 


1.3 小 波 分 解 
利用 小 波 分 解 加 ， 将 预 处 理 后 的 图 像 进行 三 级 小 波 分 解 。 


RI = {p(x, du y n} (8) 
Re = {pCo WI rn < dey Sr kk=2,3,..,n) (9) 
计算 每 个 圆 环 内 的 均值 、 方 差 、 偏 态 和 峰 态 来 表示 相应 风 


于 选择 的 LBP 算 子 是 固定 半径 ， 只 歼 盖 了 固定 区 域 ， 不 能 满 
足 不 同 尺 度 的 纹理 特征 ， 通 过 小 波 分 解 ， 达 到 获得 多 尺度 的 纹 
理 需 求 ， 并 能 够 压缩 一 定 的 信息 量 。 
在 小 波 分 解 中 ， 基 函数 的 选择 会 影响 算法 的 鲁 棒 性 和 区 别 
性 。 本 文 算法 选取 Haar 小 波 ， 原 因 是 Harr 小 波 能 够 保证 算法 
在 运算 速度 快 的 同时 可 以 保留 大 部 分 的 图 像 信息 包 。 


环 的 特征 。n 个 圆 环 将 会 得 到 4xn 维 的 特征 矩阵 忆 ， 对 和 矩阵 严 
按 行 进行 标准 化 ， 设 特征 矩阵 VV 第 i 行 均 值 为 参考 向 量 
特征 矩阵 这 中 元 素 到 参考 向 量 的 距离 作为 不 变 


Ci(i=1,2,3,4) 。| 
特征 ， 即 


Dj = 一 CO (10) 
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其 中 :i j 分 别 表示 行 和 列 。 
得 到 4xn 维 不 变 特 角 


FE 矩阵 D 将 其 


按 列 展开 得 到 1x4n 的 一 


巨大 影响 ， 而 


维特 征 向 量 D7 作为 纹理 的 特征 。 同 理 可 以 得 到 第 三 级 CS-LBP 
纹理 图 像 的 特征 向 量 D2， 最 终 得 到 特征 向 量 Hcs=[D1,，D2]。 
1.6 ”基于 位 平面 的 统计 特征 

噪声 的 攻击 会 对 小 波 分 解 得 到 高 频 信 息 产生 
经 过 位 平面 分 解 噪声 信息 将 会 集中 于 低位 平面 03， 高 


然 保 留 了 重要 信息 。 基 于 这 一 特点 ， 
高 频 信息 中 的 水 平分 量 和 重 
面 5、6、7、8 的 统计 直方 图 ， 
对 小 波 三 级 分 解 的 高 频 信息 作 相 
最 终 得 到 16 位 的 特 得 
， 并 保证 


像 对 
7 


器 产 
希 序 


其 中 


相应 
列 与 


了 欧 
图 


噪声 的 鲁 棒 性 


立 平面 依 
对 于 小 波 二 级 分 解 得 到 的 


直 分 量 应 用 亿 理论 ， 统 计 位 平 


FE 向 量 Hwpmy=[Hw，Hw1]， 有 效 地 1 


立 平面 
并 归 一 化 得 到 8 位 特征 向 量 Hw， 
司 处 理 得 到 8 位 特征 口 | 量 Hw:i, 


是 高 了 图 


哈 希 生成 


不 同 图 像 的 


又 别 性 。 


为 了 体现 位 图 


生 8n+16 个 


乱 , 即 


列 进行 


: i 表示 序列 


像 的 作 / 
式 (11) 所 示 ， 


习 ， 将 得 到 


的 低频 特征 和 高 频 特征 按 


He 


H=round]0x H+0.5) ( 
1.4 和 1.5 节 知 哈 希 长 度 为 8n+16 个 整数 ,利用 随机 发 生 
伪 随 机 数 序列 K 作为 密 钥 。 通 过 密 钥 K 对 哈 


AD = HKID) ( 
K 中 第 i 个 数 。 
1.8 图像 拷贝 检测 


进行 取 整 操作 , 如 式 (12) 所 示 。 
]) 


Hces,4x Hwpm |] ( 


对 需要 检测 的 


图 像 库 和 


的 哈 希 序列 库 和 
的 


氏 距 离 计 算 , 如 式 (14) 所 示 。 


险 希 序列 库 中 


查询 图 
从 希 序 


像 为 拷贝 区 


像 。 找 贝 


Da)=, | hi) 


查询 图 像 


需要 查询 的 图 像 通过 哈 希 函数 得 到 
像 哈 希 序列 ， 将 查询 图 像 的 哈 希 序 
列 计算 哈 希 距离 ， 本 文中 哈 希 距离 
当 欧 氏 距 离 小 于 设 定 阔 值 时 ， 
检测 流程 如 图 2 所 示 。 


N 
(14) 


i=] 


图 像 库 


> 哈 希 函数 < 


a 
J } 
查询 图 像 哈 希 序列 By 
人 
Pe 非 拷贝 图 像 
拷贝 图 像 
图 2 ”图像 拷 贝 检测 流程 


2 ”实验 结果 与 分 析 


实验 中 的 参数 设置 如 下 : 图 像 规格 化 大 小 M=256， 标 准 
斯 低 通 滤波 。CS-LBP 的 半径 R=1， 像 素 点 个 数 
此 哈 希 长 度 为 336 个 整数 。 


为 3 的 3x3 高 
AN=8， 圆 环 数 n=40， 
2.1 和 鲁 棒 性 实验 


天 


在 鲁 棒 性 实验 中 ， 将 Airplane、House、Lena、Baboon 和 


Peppers 五 幅 图 像 做 测试 样本 。 图 像 处 班 


如 表 1 所 示 。 实 


如 图 3 所 示 。 
150 T 
+ Airplane 
米 Baboon 
O House 
~ lean 
让 Peppers 
100r 下 ] 
8 
品 
到 
加 
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50 上 忆 | 米 


30 


50 


indices 


图 3 


图 3 中 横 坐 标 表示 常规 处 理 ( 
里 图 像 与 原始 图 像 的 哈 希 距离 。 可 
规 的 处 理 对 哈 希 的 影响 不 是 很 大 。 


常规 处 理 对 哈 希 的 影响 


表 1) ， 
以 看 出 ， 
对 于 了 


哈 希 距离 会 迅速 增加 。 这 是 因为 近 


似 图 


性 差 。 


通过 医 


区 


像 的 过 程 致使 其 对 1” 以 上 旋转 的 鲁 棒 


本 方法 对 除 大 角度 旋转 以 外 的 常规 


2.2 区别 性 实验 


从 华盛顿 大 学 Ground Truth Database 图 库 049 
库 VOC200705 中 提取 300 幅 
库 。 通过 MATLAB 平台 ， 
区 别 性 。1 000 幅 图 像 总 共有 499 500 个 不 同 图 像 
生 105 000 相 


图 像 ， 从 数据 
不 同 图 像 的 图 
提 哈 希 算法 的 
对 。 通 过 对 1 000 


局 图 


像 进行 表 2 


处 理 


区 


像 ， 
构建 的 


中 的 处 至 


E， 产 


有 良好 的 鲁 棒 性 。 


信 寻 用 
后 木 


FP 提取 700 
构建 1000 测 


纵 坐 标 表示 常规 处 
除 旋转 操作 外 ， 常 
以 上 的 旋转 处 理 ， 
像 转 为 CS-LBP 纹理 
3 可 看 出 


区 | 


Hr| 


区 


似 图 


像 对 。 区 别 性 实验 结果 如 图 4 所 本 


7 
o 


表示 不 同 图 像 对 的 哈 希 距离 分 布 ， 
距离 分 布 。 由 图 4 可 以 看 出 ， 不 同 


蓝 色 表示 相似 


区 


像 哈 希 距离 分 布 有 着 明显 的 界线 ， 


两 种 情况 .为 此 引入 检 错 率 和 碰撞 率 [ 


以 选择 适当 


可 


N 
Pr = 下 
Ns 
AN 
灵 = 一 人 
NDp 


其 中 : Nz 为 相似 图 像 对 被 检测 为 不 
检测 为 相似 对 ; Ns、Np 分 别 为 相似 
对 的 总 数目 ，Pz 为 检 错 率 ; Pc 为 而 


图 像 对 的 总 数 
撞 率 。 


司 图 像 对 ; Nc 为 不 同 


的 阔 值 来 


目 和 不 


可 


妈 库 中 验证 


所 


其 中 红色 ( 见 电子 版 》 
图 像 对 的 哈 希 
像 哈 希 距离 分 布 与 相似 图 


区 分 


9 公式 ,如 (13) 和 (16) 所 示 。 


(15) 


(16) 


像 对 
图 像 
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表 1 常规 处 理 参 数 
攻击 类 别 软件 工具 ”参数 说 明 参数 设置 
亮度 调整 Photoshop ”级 另 -20 -10 10 20 
对 比 度 调整 photoshop 级 昂 -20 -10 10 20 
如 马 矫正 MATLAB y 值 0.75 0.9 1.1 1.25 
JPEG 压缩 光影 魔术 手 质量 因子 30 40 50 ...100 
图 像 缩放 MATLAB 比例 0.5 0.75 0.9 1.1 1.5 2.0 
椒盐 噪声 MATLAB 级 昂 0.001 0.002 ...0.01 
3x3 高 斯 低 通 滤波 MATLAB ”标准 差 0.1 0.20.3...1 
旋转 MATLAB 度 0.20.40.812 
表 2 常规 处 理 设 置 
攻击 类 别 软件 工具 ”参数 说 明 参数 设置 
亮度 调整 Photoshop 级 别 -20 20 
对 比 度 调整 photoshop 级 男 -20 20 
加 马 矫 正 MATLAB y 值 0.75 1.25 
JPEG 压缩 光影 魔术 手 ”质量 因子 40 80 
图 像 缩 放 MATLAB 比例 0.5 1.5 
椒盐 噪声 MATLAB 级 只 0.002 0.006 
3x3 高 斯 低 通 滤波 MAILAB 标准 差 0.2 0.6 
2.5 x10% 
al 
"| 
和 < 1 
05 
"0 50 100 150 200 250 
Distance 
图 4 区 别 性 实验 结 
表 3 Pc 和 Ps 与 阐 值 的 关系 
闵 值 105 110 115 120 
Pe 0 4.2x105 1.9x104 9.8x104 
Pe 3.7x104 1.7x104 1.2x104 7.6x10 


位 


已 和 己 与 阔 值 的 关系 如 表 3 所 示 。 从 表 3 中 可 以 看 出 ， 


相 了 矛盾 的 。 在 实际 运用 


撞 率 和 检 错 率 是 相互 约束 的 关系 ， 因 此 鲁 棒 性 和 区 别 性 是 互 


们 


2 


Lena 图 像 的 


撞 率 和 检 错 率 。 
.3 安全 性 分 析 


P 可 以 根据 要 求 选择 合适 的 闪 值 。 根 据 
表 3 的 结果 阔 值 可 以 选 为 115， 在 该 病 值 下 ， 算 法 具有 较 低 的 


为 了 验证 算法 的 安全 性 ， 先 用 一 个 密 钥 作为 正确 密 钥 提取 


人 台 希 ， 然 后 在 


其 他 条 件 不 变 情况 下 ， 选 择 1000 个 


错误 密 钥 来 获得 相应 错误 密 钥 得 到 的 图 像 哈 希 。 这 些 错误 密 钥 


得 到 的 图 像 哈 希 与 正确 密 钥 得 到 的 图 像 哈 希 的 距离 如 图 


图 $ 


沈 对 ， 等 : 


5 所 示 。 


党 十 
0 100 200 300 400 500 600 700 800 900 1000 
错误 密 钥 


5 错误 密 钥 的 哈 希 距离 


对 


可 知 ， 这 些 错误 密 钥 的 距离 都 高 于 130， 远 高 于 设 


定 的 阔 值 115。 说 明 在 不 知道 正确 密 钥 的 情况 下 得 不 到 正确 的 


哈 希 序列 ， 因 此 本 文 算法 安全 性 比较 好 。 
2.4 参数 讨论 

本 节 主 要 讨论 圆 环 数 和 Hcs, Hwpm 的 比例 对 算法 性 能 的 影 
响 。 圆 环 数 分 别 取 n=10、20、30、40。 比 例 取 1:2、1:4、1:6、 
1:8、1:10。 测 试图 像 仍 用 2.2 节 构 建 的 1 000 幅 图 像 库 ， 共 有 


499 500 个 不 同 图 像 对 ， 并 按 表 2 处 理 得 到 105 000 个 相似 图 像 


对 。 下 面 


分 别 讨论 这 些 情况 。 


2.4.1 不 同 圆 环 数 对 哈 希 性 能 的 影响 


实验 中 选取 Hcs，Hwpm 的 比例 为 1:4， 然 后 讨论 区 


六 


别 为 10、20、30、40 对 哈 希 的 影响 , 对 应 哈 希 长 度 为 96、176、 


256、336 个 整数 。 并 引入 ROC 
的 哈 希 算法 性 能 。 图 


线 [7 来 比较 不 同 
环 数 下 的 ROC 


司 环 数 对 应 
线 对 比 。 图 


工 
踢 


6 为 不 同 圆 


中 ， 横 坐标 为 错误 接受 率 PrpR (false positive rate,FPR) ， 体 现 
哈 希 算法 的 区 别 性 ; 纵 坐 标 为 正确 接受 率 PrpR (true positive 


rate,FPR ) ， 


体现 哈 希 算法 的 鲁 棒 性 , 其 公式 如 (17) 和 (18) 所 示 。 


为 了 保证 比较 公平 ， 在 相同 电脑 的 MATLAB 2016a 平台 运行 ， 
计算 机 配置 为 Intel® CoreCMi7-4720HQ CPU 2.6 GHz 和 8 GB 


内 存 。 由 图 


能 。 因 此 选取 分 类 性 能 更 好 的 一 个 即 圆 环 数 为 40 的 能 很 好 地 


让 


圆 环 数 为 40 时， 本文 算法 有 较 好 的 分 类 性 


6 可 知 ， 


i 


汪 


体现 本 文 算法 的 性 能 。 


接受 率 


正确 


x103 


97 1 1 1 1 1 1 1 
0 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.01 


图 6 不 同 圆 环 数 ROC 


线 对 比 
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Nfalse 
Prpp = 
PPR = 一 人 (17) 
_ Nuue 
Prpr Ny (18) 


其 中 : Neuse 是 不 同 图 像 对 被 判断 是 相似 对 数目 ， Xeue 是 相似 图 
像 对 中 被 正确 判断 为 相似 图 像 对 数目 ，M 、m 分 别 是 总 的 不 
图 像 对 和 总 的 相似 图 像 对 数目 。 
2.4.2 不 同比 例 对 哈 希 性 能 的 影响 

实验 中 保持 圆 环 数 为 40 不 变 ， 比 例 分 别 取 1:2、1:4、1:6、 


.| 


画 


ChinaXiv 合 作 其 i 
沈 麒 ， 等 : 面向 拷贝 检测 的 图 像 哈 希 算 法 
表 4 不 同 算法 的 运算 时 间 /s 
和 法 ”本文 ”文献 [4] ”文献 [18] “文献 [19] ”文献 [20] 
时 间 0.180 ”0.031 0.126 0.528 0.702 


3 ”拷贝 检测 应 用 


为 了 测试 本 文 算法 的 拷贝 检测 性 能 ， 通 过 MATLAB、 


Photoshop 和 光影 魔术 手 生 成 图 9(a) 的 拷贝 图 像 。 
作 有 亮度 、 对 比 度 、 甸 


1:8、1:10。 结 果 如 图 7 所 示 。 由 图 可 知 1:10 的 哈 希 性 能 最 差 ， 
1:4 与 1:6 相差 不 大 , 观察 左上 角 局 部 放大 图 可 知 1:4 稍微 比 1:6 
的 更 靠近 左上 角 ， 所 以 比例 选取 1:4。 


错误 接受 率 x10” 


图 7 不 同比 例 ROC 曲线 对 比 


2.5 性 能 比较 

为 了 展示 本 文 算法 的 分 类 性 能 和 效率 ， 将 本 文 算法 与 文献 
[4]、 文 献 [18]、 文 献 [19] 和 文献 [20] 的 哈 希 算法 进行 比较 。 为 了 
保证 公平 性 , 测试 图 像 仍 用 2.2 节 构 建 的 1000 幅 图 像 库 , 共有 
499 500 个 不 同 图 像 对 ， 并 按 表 2 处 理 得 到 105 000 个 相似 图 像 
对 。 其 余 参 数 设置 与 其 文献 默认 设置 一 致 。 并 使 用 各 自 的 距离 
测量 方法 来 分 析 图 像 的 相似 性 ,选取 ROC 曲线 作为 分 析 工 具 。 
图 8 是 不 同 算法 的 ROC 曲线 对 比 结果 。 由 图 可 知 ， 本 文 算法 
的 分 类 性 能 优 于 对 比 的 算法 。 通 过 记录 唯一 性 实验 时 消耗 的 总 
时 间 求 得 哈 希 函数 运行 一 次 所 需 的 平均 时 间 , 结果 如 表 4 所 示 。 
表 4 可知 ,文献 [4] 算 法 运算 快 但 其 分 类 性 能 远 低 于 本 文 算法 ， 
文献 [18] 算 法 运行 时 间 与 本 文 相差 不 大 ， 文 献 [19] 和 文献 [20] 的 
算法 运行 时 间 均 低 于 本 文 算法 的 运行 时 间 。 


1 今 全 和 下 和 一半 二 二 人 
e- 本 文 算法 “| 

a 局 -文献 [4] 算 法 
0.8 太 - 文 献 [18] 算 法 


-文献 [19] 算 法 
i$ -文献 [20] 算 法 

许 0.6 

赂 

证 05 


0 
0 01 02 03 04 05 06 07 08 0.9 间 
错误 接受 率 


图 8 不 同 哈 希 算法 的 ROC 曲线 比较 


上 马 矫 了 


E、JPEG 压缩 、 


kk 体 的 数字 操 
图 像 缩放 、 椒 盐 品 


声 、3x3 高 斯 低 通 滤波 、 乘 性 噪声 、 水 印 租 入 、 马 赛 克 、 文 本 


添加 。 各 种 操作 的 参数 设置 如 下 : 亮度 1 


ir20、 对 比 度 +20、 件 马 


矫正 值 为 1.25、JPEG 压缩 质量 因子 60、 图 像 缩放 比例 为 0.75、 


椒盐 噪声 级 别 为 0.006、 
噪声 级 别 为 0.02、 水 E 
50、 文 本 添加 文字 大 小 为 72。 通 过 这 些 操作 得 到 11 幅 拷贝 图 
像 ， 将 得 到 的 拷贝 图 像 加 入 到 构建 的 1 000 幅 


1011 个 图 像 的 


图 像 库 。 


(b)Gamma 矫 正 


3x3 高 斯 低 通 滤波 标 ; 
中 拒 入 透明 


(c)Jpeg 压 缩 


区 


住 差 为 0.6、 乘 性 
度 为 0.7、 马赛 克 单 位 格 大 小 为 


像 库 


中 


0) 水 印 嵌入 


0) 缩放 


(k) 文 本 添加 


图 9 原始 图 像 和 11 个 找 贝 版 本 


表 5 距离 最 小 的 前 13 个 图 像 


序列 图 像 距离 
1 图 10G) ”10.48 
2 图 10(k) 12.12 
3 图 10(h) 14.76 
4 图 10(c) 15.03 
5 图 100) ”25.02 
6 图 10(g) 27.58 
7 图 10(e) ”36.67 
8 图 10(d) 37.18 
9 图 10(b) 40.84 
10 图 100) 43.79 
11 图 10(f) 49.56 
12 ”其 他 图 像 ”123.70 
13 ”其 他 图 像 ”126.28 


得 到 
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表 6 查询 拷贝 图 像 时 间 /s 
查询 图 像 哈 希 提取 时 间 ” 哈 希 序列 库 建立 时 间 ”查找 时 间 
0.282 198.331 0.056 
原始 图 像 作 为 查询 图 像 。 表 5 为 与 查询 图 像 距离 最 小 的 13 
图 像 。 表 6 为 查询 图 像 在 数据 库 中 查询 到 的 拷贝 图 像 的 各 阶 
段 时 间 。 由 表 5 可 知 ，11 个 拷贝 图 像 的 距离 均 小 于 100。 当 阔 
值 取 115 时 ， 可 以 将 所 有 的 拷贝 图 像 准确 地 识别 出 来 。 由 表 6 
可 知 ,在 含有 1011 幅 图 像 的 图 像 库 的 哈 希 序列 库 没 有 建立 时 ， 
查找 拷贝 图 像 需要 198.669 s; 当 哈 希 序列 库 已 经 建立 时 ， 则 碍 
找 拷贝 图 像 只 需要 0.338 s。 查 询 图 像 哈 希 提 取 时 间 高 于 2.5 节 
实验 所 得 的 算法 运行 时 间 是 因为 查询 图 像 的 维度 为 
3136x4281x3 远 高 于 2.2 节 图 像 库 中 图 像 的 维度 。 实 验 结果 表 
明 本 文 算法 在 拷贝 检测 应 用 方面 具有 不 错 的 效果 。 
4 ”结束 语 
加 本 文采 用 对 纹理 信息 的 统计 结合 高 频 信 息 的 位 图 像 统计 来 
LO 构建 哈 希 算法 ， 利 用 纹理 信息 的 统计 特征 来 实现 哈 希 的 鲁 棒 性 
CD。 和 区 别 性 ， 通 过 对 高 频 信息 应 用 位 图 像 理论 ， 提 高 算法 的 抗 品 
声 能 力 。 实 验 表明 , 本 文 算法 的 哈 希 长 度 较 短 、 运算 速度 较 快 ， 
LO 具有 较 低 的 碰撞 率 和 检 错 率 ， 与 现 有 的 一 些 哈 希 算法 对 比 ， 本 
©O 文 算法 的 分 类 性 能 较 好 ， 在 拷贝 检测 应 用 方面 能 够 准确 地 检测 
出 所 有 的 拷贝 图 像 ， 有 很 好 的 应 用 前 景 。 本 文 下 一 步 工 作 是 提 
〇 ”高 算法 对 大 角度 的 旋转 鲁 棒 性 ， 并 进一步 提高 算法 运算 速度 。 
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